实现：预期 Sarsa

你可以在下方找到预期 Sarsa 的伪代码。

预期 Sarsa 会在保证 Sarsa 和 Sarsamax 会收敛的同一条件下保证收敛。

注意，从理论上讲，只要步长参数 \alpha 足够小，并且满足有限状态下的无限探索贪婪算法 (GLIE) 条件，智能体保证最终会发现最优动作值函数（以及相关的最优策略）。但是，在实践中，对于我们所讨论的所有算法，通常都会完全忽略这些条件并依然能够发现最优策略。你可以在解决方案notebook中找到此类示例。

请在下个部分完成 Temporal_Difference.ipynb 的第 4 部分：TD 控制：预期 Sarsa。请记得保存内容！

你可以查看 Temporal_Difference_Solution.ipynb 的相应部分，检查你的解决方案是否正确。

Next Concept